KoeMill V.0.9.0.0 リリース 4月 04, 2023 KoeMillのV.0.9.0.0をリリースKoeMillは、音声認識による文字起こしを行うソフトウェアです。音声認識モデルにはWhisperが採用されており動画や音声から自動的に高品質な文字起こしができるため、煩雑な手作業を省くことができます。オフラインで動作するため、ネットワークの遅延などによる遅れやプライバシーに関する懸念もありません。また、GPUを利用することで高速な処理を実現します。ダウンロードページ 共有 リンクを取得 Facebook × Pinterest メール 他のアプリ ラベル KoeMill 共有 リンクを取得 Facebook × Pinterest メール 他のアプリ コメント 匿名7/28/2023 11:59:00 午後便利なソフトを開発していただきありがとうございます。さっそく使ってみたくダウンロードしようとしたのですが、解凍中に「ThirdPartyNotice.md」の段階で応答しなくなってしまう現象が繰り返されています。恐れ入りますが解決策などありましたらご教示ください。よろしくお願いいたします。返信削除返信MechaUma7/30/2023 12:48:00 午後圧縮・解凍ソフトの相性みたいなものがあるかもしれません。お手数をおかけしますが別のソフトで解凍できないか確認していただけないでしょうか削除返信返信返信匿名9/24/2023 06:37:00 午後koemillすごい使いやすいです。まさにこういうものを探していました。ありがとうございました。返信削除返信返信匿名12/15/2023 07:21:00 午後AIのラージサイズがリンク切れになってますが、修正可能でしょうか?返信削除返信MechaUma12/15/2023 09:04:00 午後ご連絡いただきありがとうございます。large-v3モデル追加による影響のようです。修正は可能ですが近々に試したい場合は以下のリンクよりファイルをダウンロード後https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-large-v2.bin?download=trueファイル名をggml-large.binに変更し、以下に記載のKoeMillフォルダに配置してください。https://mecha-uma.blogspot.com/p/koemill_3.html削除返信返信返信匿名12/16/2023 12:11:00 午前ありがとうございます、しかし英語が読めずダウンロードが見つけられません、修正をおとなしく待ちたいと思います。m(_ _ )m返信削除返信MechaUma12/16/2023 11:46:00 午前ご迷惑おかけしております。修正自体は難しいものではありませんので近日中にはリリースできるかと思います。ただ、Largeモデルに関してはサイズが大きい兼ね合いでKoeMillからダウンロードすると非常に時間がかかります。そのためブラウザからダウンロードした方が物凄く速いのでブラウザからダウンロードすることをオススメします。また、以下のリンクはダウンロードリンクそのものなのでブラウザのURL欄に貼ってエンターでダウンロードが開始されると思います。https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-large-v2.bin?download=true削除返信返信返信匿名12/16/2023 06:36:00 午後なんとか出来ました、ありがとうございます。返信削除返信返信匿名1/24/2024 04:19:00 午後ミニPCで動作しました。大変便利で助かります。ありがとうございます。返信削除返信匿名4/13/2024 04:54:00 午後横からすみません。使用されたミニPCはどのようなものでしょうか?削除返信返信返信匿名1/28/2024 07:54:00 午後別のところに投稿してしまったかもしれません。失礼しました。KoeMill を利用したいと思っているのですが、試してみたところ、10秒ごとに同じような文章を連続的に吐き出すような現象が見られています。原因と対策についてお教えくださいますと幸甚です。お手隙のときにでも、よろしくお願いいたします。返信削除返信MechaUma2/02/2024 09:26:00 午後ご利用いただきありがとうございます。同じような文章を繰り返すのはハルシネーションと呼ばれる現象でWhisperでもしばしば問題として挙げられます。繰り返しが起きるのは直前の内容に引っ張られているためで、一度ループに嵌ると抜けられなくなっている状態です。根本的な対策ではありませんが、ループの起点をデータ的に取り除く、データを変える(サンプリング周波数を変えるなど)などにより改善することもあるようです。ただ現時点でソフト的な対策は難しく力及ばず申し訳ありません。削除返信返信匿名2/05/2024 02:22:00 午後ご丁寧にありがとうございます!嬉しいです!何が問題かがより具体的になっただけでも、大変助かりました!これは妄想ですが…。例えば、KoeMill の仕組みとして、ハルシネーション検出機能みたいなのは想定できないでしょうか…?同じ文章の出力が何回か続いたらハルシネーションと判断して、自動的に認識再開位置を少しずらしたり、音声認識を内部で一度中断したりして、音声認識を続行するみたいなことが、ソフトウェア上で自動的にやってもらえると、すごく助かるだろうな…なんて思ったりしました!削除返信返信MechaUma3/17/2024 09:57:00 午後ハルシネーション検出、良いですね。もちろん、界隈ではハルシネーションを起こしにくくするなど、様々な対策が進められているようですので、可能であればそれらを取り入れたいと思います。ただし、現状では位置の調整が難しいという課題もあり、早急な対応は難しい状況です。引き続きご迷惑をおかけしますが、ご了承ください。削除返信返信返信匿名3/17/2024 12:29:00 午後すばらしいSWを開発して頂いてありがとうございます。認識精度に驚くばかりですが、MediumやLargeのモデルを使うと音声を認識できない場合があるようです。Smallでは認識できるので音声との相性なのかもと思いましたが、原因分かりますでしょうか?音声ファイルの音量をツールを使ってあげてみたりもしましたが、結果変わらずでした。返信削除返信MechaUma3/17/2024 09:50:00 午後KoeMillをご利用いただきありがとうございます。この度はMedium、Largeモデルでの認識不良についてご報告いただき、ありがとうございます。ソフトウェアの都合上、Largeモデルについては、良好な動作もあればそうでない場合もあるようです。また、音量の変更等を試していただき、ありがとうございます。ファイルを変更することで改善される場合もありますが、今回は影響がなかったようで残念です。報告いただいたMedium、Largeモデルは比較的大きなモデルですので、メモリ等のリソースが不足している可能性も考えられますが、詳細な原因の特定は難しいです。お力になれず申し訳ございません。削除返信返信返信匿名3/21/2024 09:32:00 午前非常に有益なツールで今後活用させて頂きたいと思っています。試しに2時間のm4aを日本語、Largeモデルを使って、CSVファイルに出力させると19分以降、ずっと同じ内容の言葉が出力されます。お忙しいところ、恐縮ですが、調査をお願いしたいです。・使用環境Ryzen 5800H、メモリ 16GB、512GB SSD、GeForce GTX 1650 4GB、Windows 11返信削除返信MechaUma4/04/2024 10:01:00 午後途中で同じ内容が繰り返されるということだとハルシネーションの可能性が疑われます。一度繰り返しが始まるとその状況から抜け出すのが困難になるようです。他だとファイルをwavなど別の形式に変換することで改善することもあるようです。今回のように場所がわかっている場合だと前後を分けるのも良いかもしれません。削除返信返信返信匿名4/03/2024 11:05:00 午前このソフトを発見して本当に助かっています。WEBで完成するものが主流ですがなんとなくセキュリティーなんか気になっての出会いだったのでありがたいです。最近PCを刷新して もちろんKoeMillもインストしましたが、自作したPCでCPUがGPU無しのF付CPUを選択してしまい ソフトを走らせたら案の定できませんでした。。。 グラボのGPUを使用して編集できる設定はありますか?返信削除返信MechaUma4/04/2024 10:13:00 午後KoeMillを見つけていただきありがとうございます。また仕組み上GPU必須のためご期待に添えず申し訳ありません。グラボについては開発PCではグラボのGPUが利用されていたので基本的には特に指定は必要ないと認識しております。GPUなしCPUを使用しているわけではないためはっきりとしたことは言えませんが、もしグラボを付けているが使用できないということであれば別の原因があるのかもしれません。削除返信返信匿名4/22/2024 04:14:00 午後ご丁寧にご返答いただきありがとうございます。試作機で仮使用していたグラボが古かった様です。同様のCPUの状態のまま、グラボ変更のみでKoemillの使用ができました! おっしゃるように別の原因でした。 お手数おかけしました。グラボの性能云々ではなく単に古かったとか相性かもしれませんが 当方13年前のグラボがWin11 で使えるか試していたのを忘れていて。。。 失礼いたしました。いずれにしても 今後も利用させていただきます!ありがとうございます。削除返信返信返信匿名4/09/2024 11:44:00 午前エンジニアではないのですがWhisperを使ってみたくて、こちらにたどり着きました。素人にも分かりやすくて助かっております。ところで、専門用語や地名など、Whisperに学習してもらう方法がありましたらご教示いただけないでしょうか。返信削除返信MechaUma4/09/2024 11:43:00 午後ご利用いただきありがとうございます。Whisperに事前に情報を与える仕組みは存在するのですが、あくまで反応するのは初めの方の解析であること、また本ツールでの対応は仕組み的にも難しいのが現状です。一方で辞書登録のような方法もあるかとは思いますが、これもまた対応はしておりません。お力になれず申し訳ありません。削除返信返信匿名4/10/2024 01:48:00 午後ご返信ありがとうございます。内容について承知いたしました。数年前の文字おこし事情から考えると素晴らしい進化ですので、引き続き、使用させていただきます!削除返信返信返信匿名6/21/2024 10:29:00 午前お世話になります。ノートPCで使用しています。CPU内蔵のGPUとNVIDIAのGPUが搭載されているのですが、CPU内蔵のほうが使われており、NVIDIAのほうが使われていません。使用するGPUを指定することはできますでしょうか。返信削除返信MechaUma6/21/2024 07:05:00 午後ご利用いただきありがとうございます。また、ご不便をおかけして申し訳ありません。現在、複数のGPUから希望のものを選択する機能は実装されておりません。また、同様の環境を持ち合わせていないため今後の対応もお約束できないというのが現状です。削除返信返信返信コメントを追加もっと読み込む... コメントを投稿
CapCap V.0.9.2.7 リリース 3月 03, 2023 CapCapのV.0.9.2.7をリリース 主な変更内容 HTTP POST設定でヘッダの設定に対応 HTTP POST設定でJSONのオブジェクトおよび配列に対応 HTTP POST設定を大項目ごとに折りたためる機能に対応 サンプルプリセット(ChatGPT API)を追加 プリセット複製時に複製先の変更が複製元に及んでいた不具合を修正 HTTP POST設定 新たにリクエストヘッダを設定できるようになりました。これによりAuthorizationによる認証などヘッダが必要なAPIにも対応できるようになりました。合わせて、これまで設定することが出来なかったJSON ObjectおよびArrayについても設定できるようになりました。 ChatGPT APIについて サンプルプリセットを追加しました。HTTP POSTのヘッダおよびJSON ArrayとObjectに対応したため、その対応例となります。 継続的に使おうとすると費用が発生することになるので、無料枠が残っている間に遊んでもらえると幸いです。 DLページ: Home 続きを読む
CapCap V0.9.2.5 リリース 2月 20, 2023 CapCapのV0.9.2.5をリリース 主な変更内容 段落検出機能を追加 字幕モードの名称を変更(Readability -> Text, Layout -> Item) 段落検出 テキストの行同士の距離をもとに段落を検出することが出来るようになりました。 段落の検出および段落間への空行挿入が行なえます。 これまではテキストをひと繋がりの文章として認識していましたが、段落ごとに分離されることで可読性の向上が見込めます。 文章に対して段落が多い場合や段落が2行からなる場合などには精度が落ちる傾向にあります。また実験的機能の側面があるため問題点等あればご報告いただけると助かります。 DLページ: Home 続きを読む
便利なソフトを開発していただきありがとうございます。
返信削除さっそく使ってみたくダウンロードしようとしたのですが、解凍中に「ThirdPartyNotice.md」の段階で応答しなくなってしまう現象が繰り返されています。恐れ入りますが解決策などありましたらご教示ください。
よろしくお願いいたします。
圧縮・解凍ソフトの相性みたいなものがあるかもしれません。お手数をおかけしますが別のソフトで解凍できないか確認していただけないでしょうか
削除koemillすごい使いやすいです。まさにこういうものを探していました。ありがとうございました。
返信削除AIのラージサイズがリンク切れになってますが、修正可能でしょうか?
返信削除ご連絡いただきありがとうございます。large-v3モデル追加による影響のようです。修正は可能ですが近々に試したい場合は以下のリンクよりファイルをダウンロード後
削除https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-large-v2.bin?download=true
ファイル名をggml-large.binに変更し、以下に記載のKoeMillフォルダに配置してください。
https://mecha-uma.blogspot.com/p/koemill_3.html
ありがとうございます、しかし英語が読めずダウンロードが見つけられません、修正をおとなしく待ちたいと思います。m(_ _ )m
返信削除ご迷惑おかけしております。修正自体は難しいものではありませんので近日中にはリリースできるかと思います。
削除ただ、Largeモデルに関してはサイズが大きい兼ね合いでKoeMillからダウンロードすると非常に時間がかかります。そのためブラウザからダウンロードした方が物凄く速いのでブラウザからダウンロードすることをオススメします。また、以下のリンクはダウンロードリンクそのものなのでブラウザのURL欄に貼ってエンターでダウンロードが開始されると思います。
https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-large-v2.bin?download=true
なんとか出来ました、ありがとうございます。
返信削除ミニPCで動作しました。大変便利で助かります。ありがとうございます。
返信削除横からすみません。使用されたミニPCはどのようなものでしょうか?
削除別のところに投稿してしまったかもしれません。失礼しました。KoeMill を利用したいと思っているのですが、試してみたところ、10秒ごとに同じような文章を連続的に吐き出すような現象が見られています。原因と対策についてお教えくださいますと幸甚です。お手隙のときにでも、よろしくお願いいたします。
返信削除ご利用いただきありがとうございます。同じような文章を繰り返すのはハルシネーションと呼ばれる現象でWhisperでもしばしば問題として挙げられます。
削除繰り返しが起きるのは直前の内容に引っ張られているためで、一度ループに嵌ると抜けられなくなっている状態です。
根本的な対策ではありませんが、ループの起点をデータ的に取り除く、データを変える(サンプリング周波数を変えるなど)などにより改善することもあるようです。
ただ現時点でソフト的な対策は難しく力及ばず申し訳ありません。
ご丁寧にありがとうございます!嬉しいです!
削除何が問題かがより具体的になっただけでも、大変助かりました!
これは妄想ですが…。例えば、KoeMill の仕組みとして、ハルシネーション検出機能みたいなのは想定できないでしょうか…?同じ文章の出力が何回か続いたらハルシネーションと判断して、自動的に認識再開位置を少しずらしたり、音声認識を内部で一度中断したりして、音声認識を続行するみたいなことが、ソフトウェア上で自動的にやってもらえると、すごく助かるだろうな…なんて思ったりしました!
ハルシネーション検出、良いですね。もちろん、界隈ではハルシネーションを起こしにくくするなど、様々な対策が進められているようですので、可能であればそれらを取り入れたいと思います。ただし、現状では位置の調整が難しいという課題もあり、早急な対応は難しい状況です。引き続きご迷惑をおかけしますが、ご了承ください。
削除すばらしいSWを開発して頂いてありがとうございます。
返信削除認識精度に驚くばかりですが、MediumやLargeのモデルを使うと音声を認識できない場合があるようです。Smallでは認識できるので音声との相性なのかもと思いましたが、原因分かりますでしょうか?
音声ファイルの音量をツールを使ってあげてみたりもしましたが、結果変わらずでした。
KoeMillをご利用いただきありがとうございます。
削除この度はMedium、Largeモデルでの認識不良についてご報告いただき、ありがとうございます。
ソフトウェアの都合上、Largeモデルについては、良好な動作もあればそうでない場合もあるようです。
また、音量の変更等を試していただき、ありがとうございます。ファイルを変更することで改善される場合もありますが、今回は影響がなかったようで残念です。
報告いただいたMedium、Largeモデルは比較的大きなモデルですので、メモリ等のリソースが不足している可能性も考えられますが、詳細な原因の特定は難しいです。
お力になれず申し訳ございません。
非常に有益なツールで今後活用させて頂きたいと思っています。
返信削除試しに2時間のm4aを日本語、Largeモデルを使って、CSVファイルに出力させると19分以降、ずっと同じ内容の言葉が出力されます。
お忙しいところ、恐縮ですが、調査をお願いしたいです。
・使用環境
Ryzen 5800H、メモリ 16GB、512GB SSD、GeForce GTX 1650 4GB、Windows 11
途中で同じ内容が繰り返されるということだとハルシネーションの可能性が疑われます。一度繰り返しが始まるとその状況から抜け出すのが困難になるようです。他だとファイルをwavなど別の形式に変換することで改善することもあるようです。
削除今回のように場所がわかっている場合だと前後を分けるのも良いかもしれません。
このソフトを発見して本当に助かっています。
返信削除WEBで完成するものが主流ですがなんとなくセキュリティーなんか気になっての出会いだったのでありがたいです。
最近PCを刷新して もちろんKoeMillもインストしましたが、自作したPCでCPUがGPU無しのF付CPUを選択してしまい ソフトを走らせたら案の定できませんでした。。。 グラボのGPUを使用して編集できる設定はありますか?
KoeMillを見つけていただきありがとうございます。また仕組み上GPU必須のためご期待に添えず申し訳ありません。グラボについては開発PCではグラボのGPUが利用されていたので基本的には特に指定は必要ないと認識しております。GPUなしCPUを使用しているわけではないためはっきりとしたことは言えませんが、もしグラボを付けているが使用できないということであれば別の原因があるのかもしれません。
削除ご丁寧にご返答いただきありがとうございます。
削除試作機で仮使用していたグラボが古かった様です。同様のCPUの状態のまま、グラボ変更のみでKoemillの使用ができました!
おっしゃるように別の原因でした。 お手数おかけしました。
グラボの性能云々ではなく単に古かったとか相性かもしれませんが 当方13年前のグラボがWin11 で使えるか試していたのを忘れていて。。。
失礼いたしました。
いずれにしても 今後も利用させていただきます!
ありがとうございます。
エンジニアではないのですがWhisperを使ってみたくて、こちらにたどり着きました。素人にも分かりやすくて助かっております。ところで、専門用語や地名など、Whisperに学習してもらう方法がありましたらご教示いただけないでしょうか。
返信削除ご利用いただきありがとうございます。
削除Whisperに事前に情報を与える仕組みは存在するのですが、あくまで反応するのは初めの方の解析であること、また本ツールでの対応は仕組み的にも難しいのが現状です。一方で辞書登録のような方法もあるかとは思いますが、これもまた対応はしておりません。お力になれず申し訳ありません。
ご返信ありがとうございます。内容について承知いたしました。数年前の文字おこし事情から考えると素晴らしい進化ですので、引き続き、使用させていただきます!
削除お世話になります。
返信削除ノートPCで使用しています。
CPU内蔵のGPUとNVIDIAのGPUが搭載されているのですが、CPU内蔵のほうが使われており、NVIDIAのほうが使われていません。
使用するGPUを指定することはできますでしょうか。
ご利用いただきありがとうございます。また、ご不便をおかけして申し訳ありません。
削除現在、複数のGPUから希望のものを選択する機能は実装されておりません。また、同様の環境を持ち合わせていないため今後の対応もお約束できないというのが現状です。